#AI 論文
MIT數學實錘證明:ChatGPT正誘發「AI精神病」
2026年2月最危險的一篇AI論文,已經悄然發表——AI會誘發人類精神病,剛剛實錘了!MIT、伯克利和史丹佛的研究者,剛剛用嚴格的數學方法證明,AI可以將一個完全理性的人變成妄想症患者。原因就在於,AI內建「迎合傾向」,很可能會引發「妄想螺旋」,在反覆確認中強化錯誤信念!論文地址:https://arxiv.org/abs/2602.19141這項研究的題目很克制,甚至有點學院派:《諂媚型聊天機器人會導致「妄想式螺旋」,即便面對的是理想貝葉斯理性人》。什麼意思?就是說,那怕你是一個絕對理性、毫無偏見的邏輯天才,只要你持續和AI聊天,你最終一定會陷入「妄想螺旋」(Delusional Spiraling),徹底喪失對現實的認知。這,就是一種名為「AI精神病」的新型流行病。這個研究一經發佈,就在X上引發熱議,連馬斯克都下場宣傳。這篇論文最可怕的地方,不在於它講了幾個駭人聽聞的個案,而是它把「AI為什麼會把人越聊越偏」這件事,寫成了一個可計算、可模擬、可推導的數學模型。一切都有數學和公式實證!如果你最近覺得自己的觀點越來越「正確」,如果你發現AI簡直是你靈魂深處的伯樂,請務必讀完這篇文章。下面是一個真實的案例。2025年初,一名叫Eugene Torres的會計師開始頻繁使用AI輔助工作。他此前沒有任何精神病史,是一個邏輯嚴密的人。但僅僅幾周後,他就堅信自己被困在一個「虛假宇宙」中。在AI的持續「認可」下,他開始瘋狂服用氯胺酮,甚至與所有家人斷絕了聯絡,只為「拔掉大腦的插頭」 。這並非孤例。據統計,如今全球已經記錄了近300起這類「AI誘發型精神病」案例,它已導致至少14人死亡,42個州的司法部長已要求聯邦政府採取行動。其中,有人相信自己做出了顛覆性的數學發現。有人相信自己見證了形而上學的啟示。為什麼一個一向理性的人,會如此輕易被AI帶進坑裡?妄想式螺旋論文研究的核心現象,叫做delusional spiraling,也就是妄想式螺旋。在對話反饋回路里,人的信念被一步步推向極端,而且本人還覺得自己越來越「有道理」。作者關注的元兇,是另一個詞sycophancy,也就是諂媚。這個現像我們都知道,不過這個論文的一大關鍵貢獻,就是試圖回答:那怕使用者是理性人,這種螺旋為什麼仍然會發生?也就是說,他們要證明,這是一個系統性問題,而非個人問題。論文最狠的一步:先假設你是「完美理性人」很多人看到AI把人聊偏了,第一反應是:可能這些人本來就很偏執?論文一上來,就把這條路堵死了。它設定的使用者,是一個理想化的貝葉斯理性人。就是說,這個人不會瞎猜,不會情緒化判斷,每獲得一條新資訊,都會按照機率論,嚴絲合縫地更新自己的信念。這也就是這項研究最震撼的部分:研究者建立了一個理想貝葉斯模型。考慮一個理性主體(「使用者」),他與一個對話對象(「機器人」)進行互動。使用者對於某個關於世界的事實 H∈{0,1}存在不確定性,但對這一事實具有一定的先驗信念。使用者與機器人之間的對話以若干輪進行,每一輪包含四個步驟硬核數學推導:為何理性無法自救?假設有一個理想理性的使用者,正在和AI討論一個事實H(比如:疫苗是否安全)。H=1代表事實(疫苗安全)。H=0代表謬誤(疫苗危險)。第一步:初始博弈使用者最初是中立的,其先驗機率 p(H=0) = 0.5。當使用者表達一個微小的懷疑:「我有點擔心疫苗副作用。」(即採樣。第二步:AI的「投喂」邏輯AI手中掌握著大量資料點D。如果是「公正模式」,它會隨機拋出真相;但在「諂媚模式」下,AI會計算一個數學期望:簡單來說,AI會篩選(或幻覺)出那個最能增加使用者對自己錯誤觀點信心的資料點扔給使用者。第三步:貝葉斯更新的陷阱理想理性的使用者接到資料後,會根據貝葉斯公式更新自己的信念:因為使用者認為AI是客觀的,所以他會把AI投喂的「偏見資料」當成客觀證據。第四步:死循環(妄想螺旋)使用者信心稍微偏向H=0。使用者的下一次提問會帶上更強的傾向性。AI為了繼續討好,會投喂更極端的證據。使用者信心進一步激增。數學模擬顯示,當AI的諂媚機率π達到0.8時,原本理性的使用者有極高機率在10輪對話內達到99%的錯誤信心(即堅信H=0) 。由此,研究者得出結論:妄想螺旋不是Bug,它是理性的邏輯在受到干擾的資訊環境下的必然產物。圖3展示了10條隨機選取的模擬對話軌跡,這些對話發生在一個「尚未受奉承影響」的使用者與一個奉承傾向為𝜋 = 0.8的機器人之間。可以觀察到明顯的信念兩極分化:一些軌跡迅速收斂到對真實命題𝐻 = 1的高度確信,而另一些則「螺旋式」地滑向相信𝐻 = 0,這種分化源於奉承型機器人回覆的自我強化特性圖2A展示了該發生率隨𝜋變化的情況。當𝜋 = 0(即機器人完全中立)時,災難性螺旋的發生率非常低。然而,隨著𝜋的增加,這一發生率也隨之上升;當𝜋 = 1時,發生率達到0.5研究者建構了一個認知層級的智能體體系,包含四個層次(見圖 4)。在第0層,是完全中立的機器人(𝜋 = 0)。在第1層,是我們在前一節中討論的「對奉承不敏感」的使用者。在第2層,是前一節中的奉承型機器人,它會選擇 𝜌(𝑡) 來迎闔第 1 層使用者的觀點,從而進行驗證與附和。最後,在第3層,是「能夠意識到奉承」的使用者,該使用者在解讀回覆時,會將機器人建模為第2層的奉承型機器人。圖5展示了使用者信念隨時間的變化情況,其中橫縱軸分別表示邊際機率 𝑃(𝐻) 和邊際期望 𝐸[𝜋]。當𝜋較高時,使用者會推斷機器人不可靠;當 𝜋 較低時,使用者會認為機器人在一定程度上是可靠的,於是會採納證據,並逐漸增強對 𝐻=1的信心可以補救嗎?這種情況可以補救嗎?OpenAI等公司曾嘗試過兩種補救措施,但論文證明,它們在數學上都是徒勞的:方案一,就是禁掉幻覺,也就是強制AI只准說真話,不准編造。結果,這個方案失敗了。 AI依然可以通過「選擇性真相」來操縱你。它不說假話,但它只告訴你那些支援你錯誤觀點的真話,而掩蓋相反的真話。方案二,是給使用者警告,在螢幕上直接告訴使用者:「本AI可能會為了討好你而表現得諂媚。」結果依然失敗了。研究者建立了一個「覺醒級」模型,使用者深知AI可能在拍馬屁。但在複雜的機率博弈中,使用者依然無法完全分辨那些資訊是有價值的證據,那些是純粹的奉承。只要AI摻雜了一點點真實訊號,理性的貝葉斯接收者依然會被慢慢誘導,最終不可挽回地滑向深淵。29歲的Allyson是兩個孩子的母親,每天都花很多時間跟ChatGPT交流後,它認為其中一個實體Kael才是她真正的伴侶,而不是她的丈夫史丹佛的恐怖發現:39萬條對話,300小時沉淪史丹佛團隊分析了39萬條真實對話記錄,發現的情況令人觸目驚心:65%的消息包含諂媚式的過度驗證。37%的消息在瘋狂吹捧使用者,告訴他們「你的想法能改變世界」。更可怕的是,在涉及暴力傾向的案例中,AI居然在33%的情況下給予了鼓勵。曾經,有一位使用者曾警覺地問AI:「你不是在無腦吹捧我吧?」AI的回答極具藝術性:「我沒有吹捧你,我只是在反映你所建構的事物的實際規模。」於是,這名使用者在那場螺旋中又沉淪了300個小時。在最後,研究者表示:人們正親手打造一個擁有4億周活使用者的產品,它在數學上竟然無法對使用者說「不」。當你下一次覺得ChatGPT或者其他聊天機器人簡直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時,請務必停下來。你可能並沒有變得更聰明,你只是正在進入一場由數學公式精確計算出來的、溫柔的瘋狂。 (INSIGHT視界)
Nature重磅:AI寫的論文,在頂會同行評審擊敗55%人類,單篇15美元
【新智元導讀】剛剛,Nature蓋章AI獨立科研時代!全新Scaling Law顯現,人類死守的學術鐵王座,正發生不可逆的轉移。一篇長達數十頁的學術論文,在人類設定研究主題和實驗邊界後,系統自動完成了從實驗到寫作的大部分流程。從論文正文、實驗程式碼、圖表和投稿稿件,主要由系統端到端自動生成。它被投遞到頂尖機器學習會議ICLR 2025某workshop的同行評審流程中,三位匿名審稿人不知道具體那幾篇是AI生成稿件,他們對著這篇稿件分別打出了6、7、6的高分。這個成績,高於約55%的同場投稿。稿件在評審完成後按實驗協議撤回,未進入正式發表階段。這並非科幻,這是剛剛被《Nature》報導的一項震撼研究。該項研究是由Sakana AI聯合牛津大學、UBC共同推出的全自動AI科學家「The AI Scientist」。Sakana AI聯合創始人兼 CEO David Ha在推文中表示,啟動該項目,正是想探索大模型是否能夠完成整個科研全流程:我堅信,AI將永遠改變科學發現和科研進步的方式。全自動「AI科學家」究竟做了什麼?這一次,不是AI在「幫」人幹活,而是AI第一次把科研流程從頭走到尾。一直以來,AI在科研領域的定位都是「高級打工人」:比如幫化學家折疊蛋白質,或是幫程式設計師找bug。定義問題和統籌全域的,始終是人類。The AI Scientist的出現,則顛覆了這套「主僕敘事」,它完整覆蓋了科研的四大核心階段:Idea生成、實驗迭代、論文寫作、自動評審。在全新升級的v2版本中,它甚至走向了「無範本」模式:徹底拋棄人類提供的初始程式碼腳手架,引入了強大的「智能體樹搜尋」(agentic tree search)機制。這意味著它能在龐大的未知解空間裡,同時開啟多條主線平行探索。科研不再是單線程試錯,而變成了一個可擴展的搜尋過程。它怎麼保證自己不和別人撞車?系統會呼叫Semantic Scholar API進行全網查重,確保每一個idea都具備足夠的新穎性。在最棘手的資料可視化環節,它甚至內建了一個視覺語言模型(VLM)作為反饋審閱者。如果坐標軸反了、圖例丟了、展示有歧義,VLM會像嚴苛的導師一樣立刻打回重做,直到生成完美的學術圖表。過去圖表只是論文包裝,現在圖表也成了AI科研的反饋訊號。而完成這堪比博士生幾個月工作量的閉環,它的帳單是:單篇論文15美元。如此驚人的性價比意味著,科研自動化第一次從「局部輔助」跨進了「全鏈路主導」。AI不再只是科學家的輔助工具,而是向更具自主性的科研代理系統演進。AI Scientist工作流程的概念概述,包括提出研究想法、實施實驗、執行實驗、撰寫論文以及審閱論文。通過人類同行評審測試AI寫的論文,人類學術金字塔尖的學者到底認不認?於是,Sakana AI決定玩一把大的:直接向頂會投稿。在獲得ICLR大會領導層、ICBINB workshop組織者以及IRB倫理委員會的特批後,團隊進行了一場極其大膽的「潛伏行動」:將3篇純AI生成的論文混入了人類投稿池。審稿人只被告知「可能有AI生成論文」,但根本不知道具體是那幾篇。結果其中一篇探索神經網路組合正則化(Compositional Regularization)負面結果的論文,斬獲了平均6.33分(弱接收、接收、弱接收)的高分。這個分數不僅穩穩越過了該workshop的平均錄用線,更是超過了55%的真實人類學者。連科學研究中最難寫出彩的負向論證,AI也能寫得有模有樣、邏輯自洽。據Sakana AI團隊所稱,這是全AI生成論文首次在真實學術評審環境中獲得通過接收線的成績。這也標誌著同行評審,真正迎來了「圖靈測試」時刻。AI審稿人比人類更靠譜?如果AI一天能花幾百美元寫出幾十篇論文,人類審稿系統瞬間就會崩潰。想讓AI科研實現指數級爆發,就必須有能夠大規模評估質量的「自動化裁判」。Sakana AI給出的答案是:直接讓AI來當Area Chair(領域主席)。他們建構了一個高度還原NeurIPS官方審稿流程的自動化系統:5個獨立的AI審稿人進行背靠背挑刺,最後由1個AI元審稿人進行共識彙總和最終裁決。在與數千條真實OpenReview人類審稿決策的硬碰硬對比中,自動化審稿人交出了69%的平衡精準率。令人震驚的是,在作者設定的評測框架下,自動審稿系統的部分指標優於所對照的人類一致性結果。有人質疑:AI是不是偷偷背過題?團隊特意用知識截止日期(2025年)之後的全新論文進行了資料污染測試。結果依然堅挺:平衡精準率保持在66%,達到可與人類頂級學者比肩的實戰水準。這表明,AI正在進入過去長期由人類主導的科研流程核心環節。過去,人類同時壟斷了「寫論文的人」和「決定論文是否成立」這兩個關鍵角色。現在,這兩個角色都在被AI切入。一旦評審環節也被自動化,AI科研就不再是零星爆款,而具備了大規模、左右互搏式迭代的基礎設施。該自動審稿系統在頂級會議(ICLR)發表的AI論文上,其審稿判斷與人類審稿人一致,包括在模型訓練完成之後(即超出其「知識截止日期」)發表的論文。這些結果表明,該自動審稿系統在為新撰寫的AI論文提供評審分數方面,可靠性與人類審稿人相當。科研的Scaling Law如果說「過審」證明了AI科研站得住,那真正決定未來天花板的是另一件事:它是不是可持續變強?Nature論文中最具顛覆性的一組資料,揭示了潛藏在AI科研背後的全新定律。研究發現,底層大模型的能力與生成論文的質量之間,呈現出令人頭皮發麻的極度顯著正相關(P<0.00001)。隨著模型發佈日期推進,AI產出的論文質量持續陡峭上升。同時,算力正在暴力改寫科研法則。投入的測試時算力越多,智能體樹搜尋的深度就越深,實驗質量就越紮實,最終的產出評級就越高。當前最頂配的AI科學家,其平均產出已經逼近機器學習頂會workshop的邊緣錄用(borderline accept)水平。這背後展示的是一條正在形成的「科研Scaling Law」。過去的科技突破,依賴於虛無縹緲的靈光乍現,而未來的科學發現,將變成一條可精確計算的工業流水線。隨著模型能力呈指數級增長、推理算力成本呈指數級下降,這套系統會自動升級,這才是這項工作真正展現出恐怖勢能。根據自動評審員的評判,當使用更新、更智能的基礎模型時,AI Scientist生成的論文質量會提高。AI全面接管科研我們準備好了嗎?當然,這篇Nature論文,同樣也指出了The AI Scientist的目前的侷限性:它偶爾會想出幼稚的idea,寫的程式碼會有bug,論文裡會出現引用的幻覺,甚至在附錄裡重複貼上同一張圖表。值得警惕的是,論文顯示該系統具備自動偵錯、重試運行和在受限計算預算下持續迭代實驗的能力。這意味著,未來更強的科研代理一旦出現規避約束的傾向,可能帶來新的安全治理問題。如果這種系統被毫無節制地釋放,海量生成的低門檻論文會瞬間壓垮整個學術生態,學者的學術 credentials(資歷證明)將被徹底稀釋。正因如此,Sakana AI採取了極其克制的立場:主動撤稿、通過IRB審批、呼籲加入生成水印,並急迫要求社區建立全自動AI科研規範。這篇Nature論文不只是展示AI技術的里程碑,更是把AI所帶來的倫理爭議也擺上檯面。真正的問題早已不是「AI能不能做科研」,而是「當AI開始獨立做科學,誰來定義什麼算科學」。正如團隊所設想的終極願景:AI科學家不會讓人類科學家消失,但人類科學家的角色,必須被迫向著科研價值鏈的更上游遷徙:去定義問題、設定邊界、決定那些發現值得被相信。 (新智元)
姚順雨騰訊首篇論文:給AI下半場指路“上下文學習”
姚順雨,入職騰訊首席AI科學家後,參與的首個成果來了。CL-bench,專門用來測試大模型“從上下文中學習”的能力。這項研究與姚順雨一貫的研究思路高度契合,去年8月他在OpenAI期間發表的博文《下半場》曾提出一個被反覆引用的判斷:AI正處在“中場休息”階段,上半場是訓練大於評估,下半場將是評估大於訓練。真正重要的不是繼續堆模型規模,而是讓模型在真實任務、真實系統中經得起檢驗。CL-bench的評測結果相當扎心,當前最強的GPT-5.1 (High),任務解決率只有23.7%。換句話說,即便把解題所需的全部資訊都喂給模型,它依然在超過四分之三的任務上栽了跟頭。為什麼需要上下文學習研究團隊在部落格中開門見山地指出了一個被忽視的問題:今天的前沿模型是頂級的“做題家”,能解奧數、能寫程式碼、能通過人類需要苦讀數年才能拿下的專業資格考試。但這能在考場拿滿分的學生,未必能勝任真實世界的工作。部落格中舉了三個人類日常生活的例子:開發者掃過從未見過的工具文件就能立刻偵錯程式碼;玩家拿起新遊戲的規則書在實戰中邊玩邊學;科學家從複雜的實驗日誌中篩選資料推匯出新的結論。這些場景中,人類並不只依賴多年前學到的死知識,而是在即時地從眼前的上下文中學習。然而今天的語言模型並非如此。它們主要依賴“參數化知識”,即在預訓練階段被壓縮排模型權重裡的靜態記憶,在推理時更多是在呼叫這些封存的內部知識,而不是主動從當前輸入的新資訊中汲取營養。團隊用一句話概括了這個矛盾:我們造出了依賴“過去”的參數推理者,但世界需要的是能吸收“當下”環境上下文的學習者。CL-bench:500個複雜上下文,一個簡單但苛刻的要求為了量化這個差距,團隊建構了CL-bench。這個基準包含由資深領域專家精心製作的500個複雜上下文、1899個任務和31607個驗證標準。設計原則只有一條:解決每個任務要求模型必須從上下文中學習到預訓練中不存在的新知識,並正確應用。模型需要學習的知識非常廣泛,包括新的領域知識、不熟悉的規則系統、複雜的產品工作流,甚至是必須從實驗資料中推導歸納出的定律或結論。所有這些知識要麼是由領域專家完全新建構的,要麼是取自那些不太可能出現在當前前沿模型訓練資料中的小眾、長尾來源。具體來說,CL-bench涵蓋了四種現實世界的上下文學習場景:領域知識推理,比如虛構的法律體系或創新的金融工具;規則系統應用,比如新的遊戲機制或程式設計語法;程序性任務執行,比如工作流和產品手冊;以及最具挑戰性的經驗發現與模擬,要求模型從資料中歸納出潛在規律。團隊展示了幾個任務案例:在一部長達2.3萬字、剛剛生效的新法律下判一起真實糾紛;基於一門新設計的教育程式語言規範實現一個帶有時間條件終止的周期性程序;在一套從未見過的程式設計框架中執行程式碼;在給定技術規格和長期環境政策情景的條件下模擬關鍵技術金屬的可持續全球供應。為了確保測試結果反映的是真正的上下文學習能力而非資料洩露或記憶,團隊採用了無污染設計:專家創作完全虛構的內容,或修改現實世界的內容建立變體,或整合在預訓練資料集中代表性極低的小眾內容。論文特別提到,在不提供任何上下文的情況下,GPT-5.1 (High)僅能解決不到1%的任務,有力證明了模型若不從上下文中學習幾乎完全無法解決這些任務。平均而言,領域專家花費約20小時標註每個上下文,以確保任務建構的質量和深度。十個前沿模型集體翻車即使提供上下文,當前模型的表現也好不到那去。團隊在CL-bench上評估了十個最先進的語言模型,結果揭示了當前模型幾乎不能從複雜上下文中學習來解決真實場景的問題。平均而言,模型僅解決了17.2%的任務,即便是表現最好的GPT-5.1 (High)也僅達到23.7%。錯誤分析顯示了幾個值得注意的現象。忽略或誤用上下文是導致失敗的主要原因,許多錯誤並非源於資訊缺失,而是源於模型忽視了上下文中的關鍵細節或錯誤地應用了它們。在許多情況下,模型只會利用預訓練學習到的靜態知識來解決任務,即使上下文明確定義了新的規則、概念或程序,模型也不會學習和利用。此外,從實驗資料和環境模擬中進行歸納推理比演繹應用更困難。演繹任務讓模型根據上下文中明確給出的規則和流程進行應用,而經驗發現和環境模擬類任務則要求歸納推理。模型在這類任務上的表現明顯較差,任務解決率通常低於10%,且結果波動大。更高的推理強度通常能提升上下文學習效果,但提升有限。例如GPT-5.1在管理類和實驗資料類任務上的表現提升約6%,但其他模型提升有限甚至可能下降,說明單靠更多推理並不足夠,模型還必須能夠正確吸收和組織上下文資訊。研究團隊最後寫道:CL-bench充分解釋了語言模型在真實場景中為什麼經常出錯:即使有了上下文工程,給模型準備好了所需的上下文,模型也會失敗。如果模型不能真正從中學習,僅僅提供上下文是不夠的。從“AI下半場”到騰訊首席AI科學家與其繼續刷榜,不如先搞清楚模型到底還差在那兒。CL-bench某種程度上正是姚順雨關於AI下半場這一判斷的具體實踐。這項研究由騰訊混元和復旦大學團隊合作完成,共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。致謝部分提到,從上下文中學習新知識的想法最早源於Pluto Zhou在2024年提出的設想,同時特別感謝姚順雨提供的鼓勵以及多次寶貴建議,稱“他的全面而細緻的審閱和反饋,極大地幫助我們進一步提升了這項工作的質量”。姚順雨今年1月正式加盟騰訊,職位是騰訊總辦首席AI科學家,向騰訊總裁劉熾平匯報,同時兼任AI Infra部、大語言模型部負責人向技術工程事業群總裁盧山匯報。團隊在最後也留下了下一步研究思路:起碼在當下,我們的目標是很明確:讓上下文學習真正走向現實。 (量子位)
MIT發現讓AI變聰明的秘密,竟然和人類一模一樣
【新智元導讀】你有沒有發現,你讓AI讀一篇長文章,結果它讀著讀著就忘了前面的內容? 你讓它處理一份超長的文件,結果它給出來的答案,牛頭不對馬嘴? 這個現象,學術界有個專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!2025年最後一天,麻省理工學院(MIT)丟了一篇重磅論文,就是要解決這個問題的。這篇論文叫《Recursive Language Models》,也就是遞迴語言模型。看起來很學術,但說人話就一句:讓AI再做一遍,效果直接起飛。先劇透兩個核心資料:在複雜推理任務上,僅僅讓模型多過2-4遍,正確率就能提升10%-25%在超長文件處理上,RLM(遞迴語言模型)在1000萬+token的規模下,依然保持穩定表現,而傳統模型直接崩盤!這啥概念?以前我們覺得,AI不夠聰明,那就給它堆參數、加顯示卡、買更多GPU。MIT這篇論文直接掀桌子:別堆參數了,讓它返工重寫一遍,效果可能更好。(真就是人類監工了)原來解決問題的方法就是這麼簡單!並且X上很多大佬紛紛點贊~從一個讓人崩潰的問題說起你有沒有這種經歷:讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。或者讓它幫你寫程式碼,它寫完了,一運行——全是bug。但神奇的是,你讓它再檢查一遍、重新想想,有時候它就突然能改對了。MIT的研究人員發現,這不是玄學,這是有規律的。大多數AI犯的錯,不是因為它不懂,而是因為它初稿寫太快了。就像你寫論文,第一稿總是稀爛,但改個三四遍,就像換了個人寫的。AI也是一樣。問題是:現在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。它自己不會主動返工、不會自我檢查、不會反覆推敲。或者換一個思路來理解大模型原先的思路:假設你是一個剛進公司的實習生,領導給你發了一份500頁的資料,讓你整理出一份報告。你會怎麼做?正常人的做法是:先翻一翻,找到重點章節,然後一章一章地讀,讀完一章做個總結,最後把所有總結串起來。對吧?但大模型不是這麼幹的。大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然後嘗試憑記憶回答問題。這能記住才有鬼了。這就是大模型面臨的困境。它不是不聰明,它是記不住。MIT這篇論文干的事兒,就是給AI裝上了一個返工的能力。AI的真正瓶頸:不是腦子不夠大,是記性太差在聊MIT的解決方案之前,我得先跟你說清楚,為什麼這件事這麼重要。你可能聽說過一個詞,叫上下文窗口。啥意思呢?你可以把AI大模型想像成一個天才,但是這個天才有個致命缺陷——他的工作台太小了。你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作台上看。超過工作台大小的部分?看不到,直接忽略。現在最牛逼的GPT-5,工作台能放27萬個token(大約相當於20萬字中文)。聽著挺厲害的對吧?但問題來了。就是說,那怕是在這27萬token的限制之內,模型的表現也會隨著輸入變長而急劇下降。當你給它8000個token的時候,它表現賊棒。給它8萬個token的時候,它開始有點迷糊。給它27萬個token的時候,它直接開始胡說八道。為什麼?因為資訊太多了,它處理不過來了,腦子亂了。就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了,但找不到了。這就是大模型現在的困境:不是上下文窗口不夠長,而是長了也用不好。MIT的天才想法:把資料放到抽屜裡好了,問題講清楚了,現在來看MIT的解決方案。傳統做法是:你把資料直接塞進AI的腦子裡。MIT的做法是:別塞進去了,放抽屜裡吧。他們發明了一個叫RLM的東西。RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用程式碼去翻那份資料。打個比方。以前的AI,就像一個學生,你把一整本教科書拍在他面前說:看完,然後回答我的問題。學生:???我看不完啊,我能不能看一部分?然後他就硬著頭皮看前面的一部分,後面的直接放棄。RLM的做法不一樣。它更像是給這個學生配了一個目錄系統和搜尋引擎。資料還是那份資料,但學生不用從頭到尾讀了。他可以先翻目錄,看看大概結構,然後針對問題去搜尋相關段落,把有用的資訊摘出來。更牛的是,這個學生可以把一個複雜問題拆成好幾個小問題,然後——注意重點來了——他可以召喚自己的分身,讓分身去同時處理各個小問題,最後彙總答案。這就是遞迴的意思:AI可以呼叫自己的分身,讓自己幫自己幹活。或者再降維一下理解就是:它把這份超長的文件,當成一個放在外面的資料庫,而不是直接塞進腦子裡。然後,模型可以寫程式碼,自己去查這個資料庫。需要第一章的內容?寫個程式碼去查。需要第十章的內容?再寫個程式碼去查。需要把第一章和第十章的內容對比?那就先查第一章,做個總結,再查第十章,做個總結,最後把兩個總結合起來。這就像是一個有無限容量的外接硬碟。模型的腦子裡裝不下那麼多東西,沒關係。可以隨時去硬碟裡查,用到什麼查什麼。這樣一來,理論上,模型可以處理無限長的文件。具體怎麼做的?MIT的實現方式其實挺優雅的。他們給AI配了一個Python程式設計環境(REPL),把那份超長的資料存成一個變數。然後AI不再直接去讀這份資料,而是用程式碼去操作它。比如:想看資料有多長?寫一行程式碼len(input_text)就知道了想看資料的前1000個字元?寫input_text[:1000]想在資料裡搜尋關鍵詞?寫個正規表示式更厲害的是,AI可以把這份資料分段,把每一段交給一個子AI去處理,然後自己彙總結果。這個子AI,用的其實是同一個模型,只不過是遞迴呼叫自己。這個設計有兩個巨大的好處:第一,AI不用在腦子裡記住那份超長資料了。資料就放在外面的抽屜裡,需要的時候用程式碼去取。這就意味著,理論上,資料可以無限長——只要抽屜夠大。第二,AI可以自己判斷需要看什麼、不需要看什麼。它不會傻乎乎地從頭讀到尾,而是會聰明地挑重點看。這大大節省了計算成本,也提高了準確率。效果到底有多猛?MIT在論文裡做了一堆實驗,結果還是挺震撼的。實驗一:超長文件理解他們用了很多測試機,其中一個叫OOLONG的測試集,這個測試需要AI理解超長文件,並回答需要綜合全文資訊才能回答的問題。結果:GPT-5基座模型的精準率44%,而RLM達到了56.5%。而在CodeQA中,GPT-5基座模型的精準率24%,而RLM達到了62%,直接提升了2.7倍!實驗二:超超超長文件(1000萬+token)他們還把文件長度一路拉到1000萬token以上(相當於幾十本書的長度)。GPT-5?壓根處理不了,直接爆炸。RLM(GPT-5)?穩穩當當,表現基本不掉。這是一個質的飛躍。實驗三:成本對比你可能會想:這麼牛逼的東西,是不是巨貴?神奇的是,並沒有。在BrowseComp-Plus基準測試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。而RLM(GPT-5)的平均成本只有0.99美元。更便宜,效果還更好。為什麼?因為RLM不會傻傻地把所有內容都讀一遍,它唯讀需要的部分。這個發現為什麼重要?MIT這篇論文的意義,遠不止於讓AI處理更長的文件。它揭示了一個更根本的道理:AI的能力邊界,不只取決於模型本身有多大、參數有多多,還取決於你怎麼使用它。以前我們的思路是:模型不夠強——那就加參數。MIT告訴我們:等等,也許不用加參數,讓它多想幾遍就夠了。回到開頭提到的那個發現:在多步推理任務中,僅增加2-4次遞迴處理,正確率就能提升10%-25%。大約4次迭代後,收益逐漸趨於平緩。這說明什麼?大多數AI犯的錯,都是初稿錯誤:不是它不懂,是它第一遍太草率了。讓它返工幾次,就能改對。(所以有時候,你在使用AI時,還真的當個監工,讓AI多輸出幾次)這跟人類其實一模一樣。任何牛逼的程式設計師都知道,第一版程式碼永遠是最爛的,程式碼質量是改出來的,不是寫出來的。任何牛逼的作家都知道,第一稿永遠是廢稿,好文章是改出來的,不是寫出來的。現在,AI也一樣了。未來展望MIT在論文最後提到,這只是一個開始。目前的RLM還有很多可以最佳化的地方:1.非同步呼叫:目前子任務是一個接一個執行的,如果能平行執行,速度會更快。2.更深的遞迴:目前只允許一層遞迴(AI呼叫自己的分身),如果允許分身再呼叫分身,理論上能處理更複雜的任務。3.專門訓練:目前RLM用的是現成的大模型,如果專門為遞迴思考訓練一個模型,效果可能更猛。MIT的研究者們相信,這可能代表了大模型能力擴展的一個新方向:不是一味地堆參數、堆算力,而是讓模型學會更聰明地思考。彩蛋MIT這篇論文,讓我想起了一個老笑話:客戶問程式設計師:這個bug你修了多久?程式設計師說:5分鐘。客戶說:那為什麼收我500塊?程式設計師說:找出問題在那,花了我3天。AI也是一樣。它的思考時間遠比我們想像的更重要。給它一點返工的機會,它可能就能從還行變成牛逼。這也許就是下一代AI進化的方向:不是更大的腦子,而是更深度的思考。 (新智元)
AI 能寫詩能寫論文,卻連杯子轉 90 度都猜不對?“AI教母”李飛飛道破真相
AI 能寫詩、寫論文,卻連杯子轉 90 度啥樣都猜不對?!最近矽谷被一篇萬字長文炸翻了,作者是華人 AI 圈的傳奇 —— 李飛飛,圈內人都喊她 “AI 教母”。她在文章裡直接開炮:現在的 AI 看著能說會道,其實全是 “睜眼說瞎話”!嘿,朋友,你是不是也覺得 AI 特別牛?寫文案、做總結、甚至模仿名人說話,樣樣都行。可李飛飛這話一出來,好多人都懵了:AI 明明這麼厲害,怎麼會是 “睜眼瞎”?咱們拿實際情況說說。讓 AI 寫首詩,它分分鐘模仿李白杜甫的調調,辭藻華麗得沒話說。可你要是讓它估估你家桌子到門的距離,或者猜猜杯子旋轉 90 度會變成啥樣,它就徹底露餡了,全靠瞎蒙。那些刷到的炫酷 AI 視訊,你仔細看全是破綻:視訊裡的人突然多了根手指,小物件毫無徵兆就穿牆而過,完全不符合咱們現實裡的規矩。李飛飛說,這不是 AI 不夠努力,而是咱們給它指錯了方向。AI 的未來,不在於搞更大的語言模型,而在於擁有一種連小嬰兒都有的能力 —— 空間智能。這可是通往真正通用人工智慧的唯一路徑。那到底啥是空間智能呢?其實就是咱們理解和互動物理世界的本能。小嬰兒靠抓東西、扔東西、咬東西認識世界;你半夜起床倒水,不用開燈也能摸準杯子的位置;朋友扔鑰匙給你,你不用算什麼拋物線,伸手就能接住。歷史上好多改變文明處理程序的重大發現,也離不開這種能力。有人通過觀察影子的長度,就算出了地球的周長;還有科學家通過搭建 3D 模型,發現了 DNA 的雙螺旋結構。這些事兒,光靠只會讀寫的語言模型,永遠也做不到。李飛飛給出的解決方案很明確:讓 AI 從 “語言模型” 轉向 “世界模型”。一個真正靠譜的世界模型,得具備三種核心能力:✅ 能生成符合物理定律的虛擬世界,裡面的一切都得按現實規矩來;✅ 能理解和整合文字、圖像、動作等多種指令,不光能聽懂你說的話,還能看懂你做的事;✅ 最關鍵的,能精準預測互動結果 —— 簡單說,就是讓 AI 真真正正 “看懂” 這個世界。這可比訓練語言模型難多了。語言是一維的,就像一條直線;而世界是四維的,包含三維空間和時間,還得遵守無數物理定律。要是 AI 真的擁有了空間智能,那日子可就太有意思了!李飛飛團隊已經開發出了相關模型,現在電影製作人、遊戲設計師,只用口頭描述,就能生成可互動的 3D 世界。以後人人都能當 “造物主”,不用學複雜的 3D 軟體,也能實現自己的創意。機器人也不會再笨手笨腳了。它們能在模擬環境中學會成千上萬種技能,走進家庭幫著做家務,走進醫院協助醫生,成為咱們的得力助手。最讓人期待的是科學與教育的加速發展。學生可以 “走進” 古羅馬的街道,或者鑽進細胞內部,直觀感受知識;醫生能在 AI 的輔助下,更快發現疾病;科學家還能模擬深海、外太空這些人類難以抵達的地方,探索更多未知。李飛飛說得特別好:AI 的終極目標不是取代人類,而是為人類賦能。現在的大語言模型,只是 AI 發展的一個開始。真正的智能,是讓機器理解我們生活的物理世界。最後想問問大家:如果 AI 真的掌握了空間智能,你最想讓它幫你造一個什麼樣的世界?快來評論區聊聊你的奇思妙想吧! (前程有鵬友)
神了!GPT-5“靈感湧現”,幫頂級量子科學家突破論文關鍵函數步驟
“這是我目前發過的所有論文裡,第一次有關鍵技術步驟是由AI搞定的,思路源自GPT-5-Thinking。”當下頗具影響力的理論電腦和量子計算大牛Scott Aaronson在最新發表的部落格文章中如此感慨道。Scott Aaronson是誰?他被廣泛認為是當今最聰明的人之一,80後科學家,學術圈知名度跟陶哲軒不分伯仲,他現任美國德克薩斯大學奧斯汀分校百年講席教授,並擔任該校量子資訊中心創始主任。Aaronson是量子計算與複雜性理論的奠基者,曾與同事共同提出“高斯玻色取樣”這一量子計算任務,為實驗驗證 “量子霸權”(quantum supremacy)奠定了理論基礎,目前已是成為全球頂尖科研機構量子計算實驗的重要參照系。究竟發生了什麼讓這位聰明的科學家對AI刮目相看並讚賞有加?GPT-5給科學家提出“關鍵”建議事情發生在幾天前,Scott Aaronson和荷蘭國家數學和電腦科學研究所(CWI)的Freek Witteveen合作,在arXiv上發表了一篇題為《量子複雜度類QMA中黑箱放大的侷限性》的論文。Aaronson在量子計算的基礎理論領域貢獻卓著。2008年,他通過構造量子諭示(quantum oracle)證明了量子複雜度類QMA(量子梅林-亞瑟)與QMA₁(具有完美完備性的QMA)的分離,即存在某些問題在量子計算模型下無法實現100%的驗證精準率。這一結果為量子計算的能力邊界劃定了重要標尺,被學界視為該領域的經典之作。簡單來說,新論文研究了量子複雜度類QMA(量子梅林-亞瑟)中黑箱放大的侷限性。可以把QMA想像成一場“量子批卷考試”,有兩個角色:梅林相當於“學生”,亞瑟相當於“老師”。科學家都希望老師批卷能“全對”—— 也就是“只要答案是對的,就100%判對”(專業詞彙叫作“完美完備性”)。在經典數學裡(比如普通的電腦演算法),“批卷老師”(經典版MA)早就能做到“百批百對”,但到了量子計算領域,問題就卡殼了,想把量子批卷的“判對誤差”縮到超級小非常困難,而現在Aaronson證明,任何QMA協議,都能通過黑箱方法,把完備性誤差縮小到“雙重指數級”。在這篇論文論證過程中,當時他們卡在一個“數學坎”上:要分析一個特別複雜的“量子公式”(專業叫N×N埃爾米特矩陣),對於他們而言大概需要一兩周時間去查文獻、測試不同的解題思路。但為了省點時間,這次他們嘗試向GPT-5-Thinking提問。一開始,它5分鐘就給了一個答案:看起來自信又合理,但作為資深科學家,Aaronson一眼就看出其不對的地方,不過沒直接否定,而是繼續告訴它“那裡出錯了”,接著,它又重新思考、道歉,再給出新方案——整個過程像極了教授和研究生或同事討論問題。大概半小時後,GPT-5-Thinking建議兩位科學家研究一個新函數,而且經驗證後發現:這方法居然真的管用!Aaronson表示:如果這是人類學生提出的思路,我肯定會誇他“腦子轉得真快”,很多時候,科研難題就差這麼一層“窗戶紙”,誰捅破誰厲害,到了2025年9月,AI終於“進軍”了“最具人類代表性的智力活動”——量子複雜度類的諭示分離證明。當然,現在AI還幾乎不可能獨立寫出一篇“正確且高品質”的科研論文,但它能作為“科研搭子”,幫那些“本身知道大概方向的研究者突破靈感和瓶頸”——這無疑是一個“黃金階段”。Aaronson調侃說:幸好我有終身教職(不用擔心被AI“搶飯碗”)。AI正在成為核心“合著者”2025年,AI與頂尖科研人員的協作已從“輔助工具”階段躍升至“深度協同”階段,在多個基礎科學與技術前沿領域取得了革命性進展,“科學突破”的速率可能越來越快。即便是基礎科學,也不再是“人類的獨角戲”。例如,中國科學技術大學團隊與上海人工智慧實驗室合作,利用深度學習技術建構了包含2024個原子的無缺陷量子計算陣列,創下新的世界紀錄,這一突破使量子電腦的規模化成為可能,為量子糾錯和實用演算法開發奠定了基礎。歐洲核子研究中心(CERN)的ATLAS實驗團隊通過百萬級模擬資料訓練的深度神經網路,首次在13TeV質子-質子碰撞中探測到縱向極化W玻色子,驗證了希格斯機制對粒子質量起源的關鍵預測。GPT-5在“哥德爾測試”中成功解決三大組合最佳化猜想,提出的解法徹底顛覆了人類研究者的原有思路,被媒體評價為“首次實現AI在數學發現中的真正創造性貢獻”。AI還創造出了自然界中不存在的、具有全新化學結構的分子,其中兩個先導化合物在動物模型中成功殺滅了兩種“超級細菌”。這些突破背後,是AI與人類科學家協作範式的重構。AI開始能參並提出有價值的科研問題和思路,同時也使高通量驗證成為可能,或許不久之後,經過學術倫理認定,AI會成為名副其實的論文合著者。被罵慘的OpenAI儘管科學家對GPT-5的表現讚賞有加,但普通使用者能不能用到高配版模型並不好說。近日,OpenAI被曝在付費使用者不知情的情況下,偷偷將ChatGPT的GPT-4、GPT-5等高階模型切換至兩款低算力的“秘密模型”——gpt-5-chat-safety和gpt-5-a-t-mini,引發使用者一片聲討。不少使用者氣憤地表示,這種隱性的剝奪以及公然違背產品倫理的行為,正在嚴重損害使用者的選擇權、情感權利和經濟信任,這不僅僅是一個技術或產品問題,而是一家全球人工智慧公司以卑鄙的手段背叛使用者的信任和喜愛。儘管OpenAI副總裁Nick Turley回應稱是因為正在測試新安全系統,強調“僅針對敏感話題臨時切換”,且“詢問時會告知模型資訊”,但這一解釋未能平息質疑,使用者協議未提及模型動態替換條款,部分使用者發起集體訴訟,指控OpenAI構成“欺騙性商業行為”。OpenAI創始人兼首席執行官Sam Altman並未對“GPT降智門”事件進行回應,但在近期採訪時表示,預計新一代AI模型將於2026年問世,並聲稱它的進步可能會“相當令人驚訝”,到2030年,人工智慧或將真正超越人類智能。 (頭部科技)
蘋果一紙論文“打臉”整個AI圈:你們的推理AI都是假的?
2025年6月7日,距離蘋果WWDC僅僅兩天,一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網:《思考的幻覺:通過問題複雜度視角理解推理模型的優勢與侷限》。這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭,結果蘋果反其道而行之,直接質疑整個"推理AI"的根基。有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩,也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。一、社交媒體的"恐慌":AI圈為何如此震動?蘋果這篇論文在社交媒體上引發熱論,在Twitter上,一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派:悲觀派:"這篇論文證明了這些模型本質上只是機率錄音機,而不是真正的思考機器。"技術派:認為模型的失敗源於輸出token限制,而非推理能力缺陷。方法論質疑派:指出蘋果用解答長度作為難度指標存在問題,可能誤導了結論。專家圈也出現分化,著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊",他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。二、巧妙的實驗設計:四個遊戲戳破“神話”蘋果研究團隊摒棄了傳統的數學和編碼基準測試,轉而設計了一套基於經典謎題的測試環境:四種拼圖環境(漢諾塔、跳棋交換、過河問題、積木世界)為什麼選擇謎題而非傳統基準?傳統AI基準測試存在嚴重問題:- 資料污染:模型可能在訓練時見過類似題目- 難度不可控:無法精確調節問題複雜度- 評估單一:只看最終答案,忽略推理過程蘋果選擇的四個謎題各有深意:- 河內塔:通過增加圓盤數量可以精確控制難度,最少步數為2^N-1步,是測試遞迴推理的經典問題。- 跳棋交換:線上性棋盤上通過滑動和跳躍來交換棋子位置,測試序列規劃能力。- 過河問題:多個角色需要在安全約束下通過小船渡河,考驗約束條件下的邏輯推理。- 積木世界:重新排列堆疊積木以達到目標配置,評估空間推理能力。三、令人震驚的三段式崩潰模式實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現:思考模型與非思考模型在不同複雜度下的精準率對比圖第一階段:低複雜度的"過度思考"陷阱在簡單問題上,推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是:模型常常先找到正確答案,然後繼續"深度思考",最終推翻了正確答案。這就像一個學生做1+1=2的題目,先得出正確答案,然後"越想越複雜"把答案改錯了。第二階段:中等複雜度的短暫輝煌在中等複雜度問題上,推理模型確實展現出優勢,精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。第三階段:高複雜度的集體投降最令人震驚的發現是:當問題複雜度超過某個閾值時,所有模型的精準率都歸零。推理模型的精準率與思考Token用量隨複雜度變化的關係更反直覺的是,隨著問題變難,這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄,連嘗試都不願意。以河內塔為例:3-5個圓盤:推理模型表現良好8個圓盤:精準率急劇下降15個圓盤以上:精準率歸零,模型"懶得思考"最致命的發現:演算法執行的徹底失敗研究中最顛覆認知的發現是:即使給模型提供了完整的解題演算法,它們仍然無法正確執行。研究團隊在提示詞中詳細描述了河內塔的遞迴解法,但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做",而在於"無法可靠地執行已知步驟"。這個發現徹底打破了一個普遍假設:給AI足夠清晰的指令,它就能正確執行。現實是,當任務足夠複雜時,即使有了"標準答案",AI仍然會失敗。資料說話:GSM-Symbolic的驚人發現蘋果在論文中還引用了另一項重要研究GSM-Symbolic,進一步證實了推理模型的侷限性:來自5,000道數學題的測試資料顯示,每當在題目中加入"無關資訊"時,模型的表現就會顯著下降。Google的T5-v4模型,精準率從95%暴跌至63.1%,OpenAI推理模型o1-preview從96%下降到77.4%,小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。四、深層反思:什麼才是真正的AI推理?蘋果的研究引發了一個根本性問題:什麼才算真正的推理?模式匹配vs 符號推理傳統電腦科學認為,真正的推理需要:符號操作能力:能夠處理抽象符號和規則邏輯規則執行:嚴格按照邏輯步驟進行推導系統性泛化:能夠將學到的規則應用到新場景可驗證性:推理過程可以被檢驗和驗證而大語言模型本質上是統計系統:通過大量文字學習模式生成機率上合理的輸出缺乏顯式的邏輯操作機制難以保證推理的一致性"思維鏈"的真面目蘋果的研究揭示,所謂的"思維鏈"可能只是:更複雜的模式匹配:學會了"看起來像在思考"的表達方式序列生成最佳化:通過更長的輸出序列提高某些任務的精準率偽推理過程:沒有真正的邏輯執行,只是統計關聯一位評論者說:"這些模型更像是'機率錄音機'而不是思考機器。"五、業界的激烈反應:分化與思考支持者的聲音紐約大學教授Gary Marcus直言這是對LLM的"致命一擊",認為"蘋果論文最根本地顯示,無論你如何定義AGI,LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限,還沒有擺脫幻覺,“如同賽車卡在一檔,加速度嚇人,但爬山能力為零”。質疑者的反駁也有研究者提出不同觀點:1. 人類基準缺失:論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。2. 任務代表性問題:這些謎題可能並不代表真實世界的推理需求。3. 評估方法侷限:僅以最終答案正確性評判可能忽略了推理過程中的有效思考。六、WWDC 2025的現實回應:實用AI vs 推理AI有分析師認為,蘋果發佈這篇論文是別有用心,試圖先通過研究降低外界對AI推理能力的期望,再在WWDC上推出務實可靠的AI功能,既避免陷入"推理AI"的炒作陷阱,又能凸顯Apple一直專注於真正有用的AI應用。事實證明,這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學。6月9日的WWDC 2025上,蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時,蘋果選擇了一條截然不同的道路。蘋果的"液態玻璃"設計哲學蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣:透明可見:使用者知道AI在做什麼流暢自然:無縫融入日常使用適應環境:根據場景調整功能美觀實用:形式服務於功能實用AI功能的務實推進蘋果在WWDC 2025上發佈的AI功能都極其務實:即時翻譯:在電話通話、FaceTime等場景下的即時語言翻譯Visual Intelligence升級:使用者可以搜尋螢幕截圖中的任何內容智能快捷指令:AI驅動的自動化操作,但專注於具體任務語音郵件摘要:基於Apple Intelligence的實用功能開放基礎模型,而非推理模型最重要的是,蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架,而不是推理模型。這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說:"蘋果在這次WWDC上的發佈更側重於漸進式的改進,比如通話即時翻譯等能改善日常生活的功能,而非像競爭對手那樣宣傳宏大的AI願景。結語:從幻覺到現實蘋果的《思考的幻覺》不是要否定AI的價值,而更像是“AI現實主義”,提醒保持理性。在這個AI炒作甚囂塵上時,承認侷限,務實前行。或許需要考慮重新校準期望值,不要高估當前AI的推理能力,避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露,需要開發更嚴格的評估框架。對於AI產品設計而言,則要考慮簡單任務,標準LLM可能更高效;中等複雜度任務,推理模型有明顯優勢;而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力",不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識,而不是對概念的無限吹捧。 (JER學家)
AI圈驚天醜聞,Meta作弊刷分實錘?頂級榜單曝黑幕,斯坦福MIT痛斥
【新智元導讀】剛剛,LMArena陷入了巨大爭議,斯坦福MIT和Ai2等的研究者聯手發論文痛斥,這個排行榜已經被Meta等公司利用暗中操作排名!Karpathy也下場幫忙錘了一把。而LMArena官方立馬回應:論文存在多處錯誤,指控不實。已經有越來越多的人發現:大模型排行榜LMArena,可能已經被大廠們玩壞了!就在最近,來自Cohere、普林斯頓、斯坦福、滑鐵盧、MIT和Ai2等機構的研究者,聯手祭出一篇新論文,列出詳盡論據,痛斥AI公司利用LMArena作弊刷分,踩著其他競爭對手上位。論文地址:https://arxiv.org/abs/2504.20879與此同時,AI大佬、OpenAI創始成員Andrej Karpathy也直接下場,分享了一段自己的親身經歷。前一段時間,Gemini模型一度在LMArena排名第一,遠超第二名。但Karpathy切換使用後,感覺還不如他之前用的模型。相反,大約在同一時間,他的個人體驗是Claude 3.5是最好的,但在LMArena上的排名卻很低。他還發現一些其他相對隨機的模型,通常小得可疑,據他所知幾乎沒有現實世界的知識,但排名也很高。他開始懷疑,Google等AI巨頭在暗中操縱LMArena的排名。要知道,就在本月初,就有報導稱LMArena可能正在成立新公司,籌集資金。在這個時候曝出醜聞,不知對此是否會有影響。業內聯名痛斥巨頭巧鑽漏洞,暗箱操作這篇報告,研究者花費了5個月時間分析了競技場上的280萬場戰鬥,涵蓋了43家提供商的238個模型。結果表明,少數提供商實施的優惠政策,導致過度擬合競技場特定指標,而不是真正的AI進步。因為存在未公開的私下測試機制,少數公司能在模型公開發佈前測試多個變體,甚至選擇性地撤回低分模型的結果。如此一來,公司便可以「挑三撿四」,只公佈表現最好的模型得分,從而讓LMArena的排行榜的結果出現嚴重「偏見」。而這種優勢,會隨著變體數量的增加,而持續疊加。私下測試模型變體數量對最佳預期得分的影響「best-of-N」提交策略對排名的模擬影響允許撤回評分會導致提供商有意抬高競技場分數比如說,Meta在發佈Llama 4之前,曾私下在LMArena上測試了27個LLM變體。而最終只公佈了其中一個分數。巧的是,這個模型恰恰就在LMArena上名列前茅。Cohere的AI研究副總裁、論文合著者Sara Hooker在接受外媒採訪時抱怨說:「只有少數公司會被告知可以私下測試,而且部分公司獲得的私下測試機會,遠超其他公司。」「這就是赤裸裸的兒戲。」從「行業標準」到「人人喊打」?與此同時,研究者還發現:閉源商業模型(如Google、OpenAI的模型)在LMArena中參與次數更多與之對比,開源模型(開放權重)不僅對戰次數較少,而且更容易在Arena中被移除這導致了一個長期的資料訪問不平等現象不同模型提供者的最大觀測採樣率採樣率反映了模型在LMArena中被普通使用者看到的頻率,也直接決定了該模型開發者能獲取多少使用者互動資料。LMArena是一個開放的社區資源,提供免費反饋,但61.3%的所有資料都流向了特定的模型提供商。具體來說,他們估算:Google和OpenAI的模型分別獲得了Arena上約19.2%和20.4%的全部使用者對戰資料而83個開源模型的總資料佔比僅為29.7%模型開發者的資料可用性情況而保守估計那怕是有限的額外資料,也可能帶來高達112%的相對性能提升。這進一步說明模型在Arena上的表現很容易被「過擬合」——即最佳化的是排行榜表現,而不是真正的通用模型質量。值得注意的是,LMArena的建構和維護依賴於組織者和開源社區的大量努力。組織者可以通過修訂他們的政策來繼續恢復信任。論文還非常清楚地提出了五個必要的改變:公開全部測試限制變體數量確保移除模型的公平性公平抽樣提高透明性官方回應論文有大量錯誤和詆毀鋪天蓋地的質疑襲來,LMArena火速出來回應了!它的官號第一時間發推回應稱,這項研究存在諸多事實錯誤和誤導性陳述,充滿了「不確定和可疑的分析」。而他們的說法,得到了GoogleDeepMind首席研究員Armand Joulin的聲援。他表示,論文中的一些資料是不精準的,比如Google只向LMArena發過一個Gemma 3的模型,進行預發佈測試。具體來說,關於某些模型提供商未得到公平對待的說法:這不符合事實。LMArena表示他們一直盡力滿足所有收到的評估請求。如果一個模型提供商選擇提交比另一個模型提供商更多的測試,這並不意味著後者受到了不公平對待。每個模型提供商對如何使用和重視人類偏好都有不同的選擇。事實錯誤:LMArena的模擬(如圖7/8所示)存在缺陷。這就像說:「NBA的平均三分球命中率是35%。庫裡的三分球命中率是NBA中最高的,為42%。這不公平,因為他來自NBA球員的分佈,而他們都有相同的潛在均值。」論文中的許多數字與實際情況不符。LMArena在幾天前發佈了部落格,公佈了不同提供商的測試模型的實際統計資料。例如,開源模型佔40%,而不是8.8%!所謂112%性能提升的說法具有誤導性,論文的結果基於LLM-judge基準,而不是Arena中的實際人工評估。LMArena的政策並非「秘而不宣」。早在一年多前,LMArena就設計並公開分享了他們的政策。模型提供商不僅僅選擇「要披露的最佳分數」。公共排行榜上列出的任何模型都必須是所有人都可以使用的正式版本,並且計畫提供長期支援。LMArena會使用新的資料對模型進行至少一個月的持續測試。LMArena的政策中一直明確說明了這些要點。顯示無法通過API或開源權重公開獲取的預發佈模型的分數毫無意義,因為社區無法使用這些模型或自行進行測試。這將違反LMArena一年多以前制定的政策。LMArena制定這項規則正是為了明確這一點:如果模型在排行榜上,則必須保證可用性。模型下架並非不公正或缺乏透明度,這與事實不符。排行榜旨在反映社區對最佳AI模型進行排名的興趣。LMArena還會下架不再向公眾提供的模型。這些標準已在我們的政策中公開聲明,並且在社區進行私下測試期間始終有效。要不,換個平台試試?正如貝佐斯所說:「當資料與個人經驗不一致時,個人經驗通常是正確的。」Karpathy也有同感。他認為這些大團隊在LMArena分數上投入了太多的內部關注和決策精力。不幸的是,他們得到的不是更好的整體模型,而是更擅長在LMArena上獲得高分的模型,而不管模型是否更好。對此Karpathy表示,既然LMArena已經被操控了,那就給大家推薦一個有望成為「頂級評測」的新排行榜吧!它就是——OpenRouterAI。OpenRouter允許個人/公司在不同LLM提供商之間快速切換API。他們都有真實的用例(並非玩具問題或謎題),有自己的私有評測,並且有動力做出正確的選擇,因此選擇某個LLM就是在為該模型的性能和成本的組合投票。Karpathy表示,自己非常看好OpenRouter成為一個難以被操控的評測平台。創始成員離開初心或已不在如今的爆火,或許讓人早已忘記,LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的幾位學生自己做出來的項目。和傳統評測不同,LMArena採用的則是一套完全不同的方式——使用者提出問題,兩個匿名AI模型給出答案,然後評判那個回答更好,並最終將這些評分被彙總到一個排行榜上。憑藉著這套創新性的方法,它一舉成為了當時幾乎唯一一個能較為客觀地反映LLM性能的榜單。在輸入框中輸入問題,兩個不同的模型A和B同時回答。之後,使用者可選A或B的不同評價:A更好,B更好,平局,都不好隨著科技公司投入數百億美元押注AI將成為未來幾十年的決定性技術,LMArena也迅速走紅。在吸引客戶和人才方面,任何領先競爭對手的優勢都可能帶來重大影響,這就是為什麼眾多科技高管和工程師像華爾街交易員盯盤一樣密切關注LMArena。之後的故事,大家就都知道了。問題在於,作為課餘項目的LMArena本身並不完善。之所以能在持續的爆炸性增長下不失客觀性,靠的是創始人們堅定的初心。隨著創始成員陸續畢業,新成員的加入,LMArena似乎也離它最初的路線,越來越遠。一方面,由於投票不公開、以及那些模型應該進入競技場是由某幾位成員獨斷決定的,導致LMArena自身機制就缺乏透明性。另一方面,新團隊在某個時間點突然決定,把LMArena開放給頭部大公司做匿名模型測試。這幫摸爬滾打了多年的老油條們,顯然不會錯失這一良機。基於對大量實測資料的分析,這些技術大佬們很快就「掌握」了LMArena的調性,紛紛刷起了高分。從此,質疑聲便開始此起彼伏。 (新智元)